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摘 要 : 跨 站 脚本 (XSS) 攻击 是 目前 互联 网 安全 的 最 大 威胁 之 一 。 针 对 传统 基于 渗透 测试 技术 的 漏洞 检测 方法 中 攻 
击 向 量 复杂 度 低 易 被 过 滤 、 整 体检 测 流程 繁琐 等 问题 ， 提 出 了 一 种 基于 扩展 的 已 科斯 范式 (EBNEF) 的 攻击 向 量 自动 生 
成 方法 和 XSS 漏洞 二 次 爬 取 策略 。 通 过 定义 EBNF 规则 生成 规则 解析 树 ， 按 层次 遍历 获得 高 复杂 度 攻击 向 量 。 在 首次 
上 爬 取 页 面 时 ， 将 输入 点 信息 蛤 入 到 攻击 向 量 后 请 求 注入 ， 之 后 进行 二 次 爬 取 ， 请 求 合 法 参数 获得 返回 页 面 。 最 后 设计 
实现 了 原型 系统 ， 并 使 用 两 个 平台 进行 漏洞 检测 。 通 过 对 比 实验 证 明 ， 该 系统 检测 流程 简单 ， 在 一 定 程度 上 提高 了 漏 
洞 检测 数 ， 降 低 了 漏洞 误 报 率 。 
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Abstract: Cross-site scripting (XSS) attacks have been one of the biggest threats to Internet security. Aiming at the problems of 
traditional vulnerability detection method based on penetration testing technology, such as attack vectors of low complexity easy 
to filter and overall detection process cumbersome, this paper proposed a new attack vectors automatic generation method which 
based on extended Backus-naur form (EBNF) and a XSS vulnerability twice crawling strategy. By defining the EBNF rule, the 
method generated a rule-parsing tree, and then traversed hierarchically the tree to obtain high-complexity attack vectors. In the 
first page crawling, the strategy inserted input point information to attack vectors and requested injection. Then it carried on the 
second crawling and requested legal parameters to get the return page. In the final, this paper designed and implemented a 
prototype system, and used two platforms for vulnerability detection. The comparative experiments prove that the system has a 
simple detection process, and to a certain extent, Improves the number of vulnerability detection and reduces the false positive 
rate. 
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的 网 络 应 用 存在 着 XSS 风险 , 一 旦 遭受 攻击 就 会 造成 极 大 的 损 

害 。 由 此 可 知 ，XSS 安全 风险 对 互联 网 安全 产生 的 威胁 已 不 容 

从 互联 网 诞生 以 来 ， 网 络 安全 问题 就 始终 存在 。 随 着 Web ”忽视 。 

应 用 程序 的 推广 ,网 络 安全 问题 也 越 来 越 被 安全 研究 者 所 重视 。 前 , 国内 外 研究 者 针对 XSS 的 漏洞 检测 的 工具 大 致 有 黑 
开放 Web 应 用 安全 项 目 (OWASP) 发 布 的 2017 年 十 大 最 关键  ” 盒 测 试 工具 和 和 白 盒 测 试 工具 欠 两 种 类 型 。 黑 盒 测 试 工具 主要 
的 Web 应 用 安全 风险 的 最 新 版 本 口中 跨 站 脚本 〈XSS) 稳 居 其 “使 用 动态 分 析 技 术 馈 实现 ， 白 盒 测 试 工具 则 主要 使 用 静态 分 析 
中 ， 排 在 第 七 位 。WhiteHat Security 组 织 在 最 新 发 布 的 2017 年 。 技术 实现， 也 有 部 分 研究 者 使 用 动静 分 析 结 合 的 技术 中 实现 
应 用 程序 安全 统计 报告 外 中 对 所 有 安全 风险 进行 了 统计 ， 结 果 ”漏洞 的 检测 。 其 中 ， 动 态 分 析 技 术 是 在 网 络 应 用 程序 运行 过 程 
显示 ,XSS 在 所 有 的 安全 风险 中 比重 高 达 33%, 仅 次 于 占 比 37% ”中 进行 检测 的 技术 ; 常用 的 分 析 方 法 包括 渗透 分 析 、 动 态 污点 
的 信息 泄露 风险 。XSS 作为 第 二 普遍 的 安全 问题 ， 近 三 分 之 二 分析、 流量 分 析 以 及 监控 、 过 滤 等 。 静 态 分 析 技 术 是 通过 审查 
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录用 稿 检测 技术 

网 络 应 用 程序 的 源 代码 或 字 节 代码 来 检测 漏洞 ， 常 用 的 分 析 方 1 ”相关 知识 

法 包括 静态 污点 分 析 、 符 号 执行 和 字符 串 分 析 等 。 为 了 避免 网 

站 开发 过 程 中 产生 XSS 漏洞 , 有 研究 者 提出 了 安全 编程 和 模型 1.1 XSS 漏洞 

化 等 解决 方案 。 到 目前 为 止 , 研究 者 将 XSS 漏洞 大 致 分 为 三 种 1", 即 反 
李威 等 人 四 提出 了 一 种 专门 针对 存储 型 XSS 漏洞 的 检测 方 。 射 型 XSS (reflected-XSS) 漏洞 、 存 储 型 XSS (stored-XSS) 漏 

法 , 使 用 BNF 范式 自动 生成 初始 攻击 向 量 , 并 再 次 进行 变异 操 ” 洞 、 基 于 DOM 型 XSS (DOM based XSS) 漏洞 。 

作 ; 之 后 使 用 聚焦 网 络 胞 虫 疏 取 页 面 , 对 爬 取 到 的 form 表单 通 反射 型 XSS 和 存储 型 XSS 漏洞 是 服务 器 端 漏洞 ， 其 形成 
过 提交 探 子 向 量 并 进行 全 网 扫描 寻找 输出 点 ;最 后 根据 匹配 到 原理 是 : 攻击 者 在 浏览 器 端 提交 恶意 代码 到 服务 器 端 ， 服 务 器 

的 输入 输出 点 注入 攻击 向 量 并 进行 漏洞 检测 。 该 方法 虽然 减少 。” 端 未 能 进行 有 效 的 过 滤 和 验证 ， 导 致 恶意 代码 出 现在 返回 的 页 

了 漏洞 检测 过 程 中 的 测试 次 数 ， 但 是 使 得 检测 之 前 的 准备 流程 面 中， 此 时 用 户 访问 该 页 面 时 就 会 加 载 恶意 代码 ， 产 生 漏洞 。 

变 得 过 于 繁琐 ， 在 自动 生成 初始 攻击 向 量 后 仍 需 要 执行 变异 操 ”基于 DOM 型 XSS 是 反射 型 XSS 和 存储 型 XSS 的 变 体 ， 与 存 

作 , 并 且 使 用 探 子 向 量 寻 找 每 一 个 form 表单 输出 点 时 都 需要 进 ” 储 型 XSS 相 比 有 着 很 大 的 不 同 ， 但 与 传统 的 反射 型 XSS 相 比 

行 全 网 扫描 。 顾 明 昌 等 人 9 对 渗透 测试 方法 做 了 一 定 程度 的 改 ”差别 很 微妙 ， 这 微妙 的 差别 却 导 致 了 攻击 特性 的 彻底 不 同 。 基 

进 , 提出 了 一 种 基于 符号 集 的 XSS 攻击 向 量 自动 生成 方法 , 并 于 DOM 型 XSS 中 服务 器 没有 直接 将 恶意 脚本 作为 页 面 的 一 部 

使 用 决策 树 分 类 算法 对 攻击 向 量 进行 分 类 ， 以 便 在 检测 阶段 进 ” 分 返回 ， 而 是 在 浏览 器 加 载 页 面 时 ， 由 于 页 面 中 合法 脚本 直接 

行 测试 输入 点 时 直接 按 类 别 使 用 。 该 方法 在 渗透 测试 前 同样 通 ”将 用 户 的 输入 数据 作为 HTML 内 容 输 出 到 页 面 , 所 以 在 合法 及 

过 使 用 探 子 向 量 去 除 一 部 分 不 存在 漏洞 的 URL， 以 减少 不 必要 ” 本 执行 后 ， 恶 意 脚 本 也 随 之 被 插入 到 页 面 之 中 。 

的 测试 ， 提 高 检测 效率 。 但 是 探 子 向 量 会 导致 仆 取 过 程 变 得 复 1.2 渗透 测试 

杂 ， 而 且 该 方法 生成 的 攻击 向 量 比较 简单 ， 很 容易 被 服务 器 端 渗透 测试 技术 是 一 种 尽 可 能 完整 地 模拟 黑客 使 用 的 漏洞 上 

过 滤 。 吴 子 敬 等 人 00 提 出 了 一 种 反 过 滤 规 则 集 对 XSS 攻击 向 量 。 现 技 术 和 攻击 手段 ， 对 目标 网 络 的 安全 性 作 深 入 的 测试 进而 

进行 转换 , 从 而 绕 过 服务 器 端 对 不 同类 型 恶意 代码 的 过 滤 机 制 ，” 现 网 络 存在 的 任何 弱点 、 技 术 缺 陷 或 漏洞 的 技术 。 渗 透 测 试 方 

并 通过 自动 爬虫 实现 XSS 攻击 向 量 的 自动 注入 , 这 也 是 对 渗透 ”法 类 型 很 多 ， 但 当前 业界 最 通用 并 被 广泛 接受 的 两 种 渗透 测试 

测试 方法 的 一 种 改进 。 然 而 该 方法 只 对 如 何 能 够 使 攻击 向 量 成 方法 是 黑 盒 测试 和 白 盒 测 试 。 

功 绕 过 服务 器 端的 过 滤 机 制 进 行 了 研究 , 而 在 漏洞 检测 过 程 中 ， 黑 盒 测试 : 又 称 为 外 部 测试 ， 测 试 人 员 完全 处 于 对 系统 一 

仅仅 通过 怜 虫 注 入 一 次 攻击 向 量 后 就 开始 检测 漏洞 ， 容 易 造 成 ” 无 所 知 的 状态 , 通过 使 用 信息 采集 工具 从 DNS、Web 、Email 及 

大 量 存储 型 漏洞 的 漏 报 。 各 种 公开 对 外 的 服务 器 上 获取 信息 ， 模 拟 真 实 的 黑客 技术 ， 有 
本 文 提出 一 种 新 的 攻击 向 量 自动 生成 方法 ， 在 渗透 测试 技 。” 组 织 有 步骤 地 对 目标 网 络 进行 逐步 的 渗透 与 入 侵 ， 发 现 目标 网 

术 的 基础 上 , 设计 出 一 款 漏洞 检测 系统 。 该 系统 通过 使 用 EBNF 络 中 一 些 已 知 或 未 知 的 安全 漏洞 ， 并 进行 安全 性 评估 。 

范式 定义 攻击 向 量 生成 规则 , 增加 XSS 攻击 向 量 生成 的 随机 性 ， 白 盒 测试 : 又 称 为 内 部 测试 ， 测 试 人 员 事先 获取 到 关于 

提高 攻击 向 量 的 复杂 度 以 便 绕 过 服务 器 ， 并 在 恶意 脚本 片段 中  ” 标 网 络 的 所 有 内 部 和 底层 的 信息 ， 并 以 最 小 的 代价 查看 和 评估 

嵌入 输入 点 信息 来 记录 输入 点 ,最 终 直 接 得 到 变异 的 攻击 向 量 。 标 网 络 中 最 严重 的 安全 漏洞 。 白 盒 测试 能 够 消除 几乎 所 有 存 

作为 一 种 黑 盒 测试 工具 ， 该 系统 在 待 检测 系统 运行 期 间 进行 了 在 于 目标 网 络 内 部 代码 和 设施 中 的 安全 隐患 ， 从 而 使 其 能 够 更 

两 次 页 面 候 取 操作 。 在 首次 候 取 页 面 过 程 中 注入 精心 设计 的 攻 ”加 牢固 地 抵挡 来 自 外 部 的 恶意 攻击 。 

击 向 量 ， 随 后 在 首次 爬 取 结果 的 基础 上 有 策略 进行 二 次 爬 取 ， 1.3 EBNF 范式 

最 后 对 两 次 爬 取保 存 下 来 的 页 面 使 用 正则 匹配 方法 进行 分 析 检 EBNF (extended Backus-naur form ) 是 一 种 元 语法 符号 表示 

测 ， 根 据 恶意 脚本 片段 的 输入 点 信息 直接 定位 漏洞 。 法 ， 主 要 用 来 正式 定义 计算 机 编程 语言 的 语法 以 及 其 他 许多 语 
在 设计 和 实现 本 文 提出 的 XSS 漏洞 检测 系统 时 , 没有 考虑 言 的 语法 , 是 基本 巴 科 斯 范式 BNF(Backus-naur form ) 的 扩展 。 

WAF 防火 墙 和 反扑 虫 措施 对 检测 结果 的 影响 , 其 原因 主要 有 两 EBNF 定义 了 把 各 符号 序列 分 别 指派 到 非 终结 符 的 产生 

点 : a) 本 系统 面向 的 使 用 群体 是 网 站 开发 者 和 维护 人 员 ， 目 的 。 规则 ， 如 letter='a'|'b'|'c'|j'd'|'e|Tf|'g' 。 

是 尽 可 能 多 地 检测 出 自己 设计 开发 的 待 检测 Web 系统 的 XSS 这 个 产生 规则 定义 了 在 这 个 指派 的 左 端的 非 终 结 符 letter。 

漏洞 ， 从 而 进行 修复 ， 如 果 Web 系统 存在 WAF 防火 墙 或 者 反  ” 竖 杠 表示 可 供 选 择 ， 而 终结 符 被 引号 包围 ， 最 后 跟着 分 号 作为 

扑 虫 的 措施 ， 则 需要 暂时 禁用 ; b) 本 文 不 是 专业 的 仆 虫 系统 ， 终止 字符 。 所 以 letter 是 一 个 a 或 b 直到 g 的 一 个 英文 字母 。 

侧重 点 在 于 设计 出 高 复杂 度 的 攻击 向 量 ， 从 而 绕 过 服务 器 端的 加 

过 滤 机 制 。 旋 取 页 面 方面 ， 通 过 改进 现 有 开源 息 虫 工具 ,使 用 。 ”车 FBNF 的 攻击 向 量 设计 

二 次 怜 取 策 略 ， 以 降低 存储 型 漏洞 的 漏 报 率 。 本 章 内 容 首 先 介 绍 如 何 设计 攻击 向 量 种 子 ， 之 后 介绍 如 何 


在 攻击 向 量 种 子 的 基础 上 定义 EBNF 范式 攻击 向 量 生成 规则 ， 
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最 后 根据 规则 生成 变异 的 攻击 向 量 。 次 的 话 与 “|” 语 法 规则 相同 。 
2.1 攻击 向 量 设计 在 注入 攻击 向 量 时 ， 复 杂 度 不 高 的 攻击 向 量 通 常会 被 服务 


在 XSS 漏洞 检测 过 程 中 , 设计 的 攻击 向 量 其 有 效 性 是 决定 。 ”器 端的 过 滤 机 制 净化 掉 ， 因 此 需要 进行 变异 处 理 ， 增 加 攻击 向 
能 否 更 加 全 面 地 检测 出 XSS 漏洞 的 关键 . 攻击 向 量 有 很 多 种 类 。 量 的 复杂 度 ， 使 之 能 够 绕 过 服务 器 端的 过 滤 机 制 ， 提 高 攻击 向 
型 ， 并 符合 一 定 的 组 成 方式 ， 即 满足 以 下 几 个 规则 ;a) 包含 可 量 的 有 效 性 。 以 攻击 向 量 “<scripf>alert(URL)</script> ”为 例 说 


i 


中 


有 


hin 


执行 的 JavaScript 脚本 ; b) 符合 HTML 语法 并 可 以 嵌入 到 HTML ” 明 ， 常 见 的 变异 处 理 方式 如 表 1 所 示 。 

页 面 中 ; c) 能 够 被 触发 执行 。 通 常 一 种 类 型 的 攻击 向 量 不 足以 表 1 变异 处 理 方式 

伟 测 出 所 有 可 能 存在 的 漏洞 , 因此 需要 使 用 多 种 类 型 重复 检测 。 变异 处 理 变异 结果 

本 文 主要 使 用 如 下 几 种 类 型 的 攻击 向 量 用 来 检测 XSS 漏洞 Ge#60:8eH115: GH#99; #114:8#105;8#112;8#116;8# 
a) 直 接 使 用 脚本 作为 攻击 向 量 。 ee 人 62:alert(URL)&#60:; #47:&#115:8#99:8#114:8&#10 
<script>alert('xss')</script> m 5;&#112;&#116;&#62; 
<script src="Xxss.js"></script> QH#x3C; HxT3; HX63; GHXT2; Hx69; HxT0; GH#x74; 

十 六 进 制 ASCII 

ee &ffx3E;alert(URL) SHx3C: 8Hx2F:; GHx73;8Hx63; Hx 
b) 把 脚本 作为 HTML 元 素 的 属性 值 嵌 入 到 HTML 元 素 中 72;8#x69;8HxT0; HxT74: GHx3E; 

作为 攻击 向 量 。 HTML 编码 &lt;script&gt;alert(URL)&lt;/script&et; 
<img src="javascript:alert('xss')"/> URL 编码 %3cscript%3ealert(URL)%3c%2fscript%3e 


ET <script>\u0061\u006c\u0065\u0072\u0074(URL)</ser 
JavaScript 编码 


c) 把 脚本 作为 HTML 元 素 的 触发 事件 戏 入 到 HTML 元 素 ipt> 
中 作为 攻击 向 量 。 elt: GH115; #99:;8#114:8#105:8#112:8#116:%3eal 
<body onload="alert('xss'")"> 混合 编码 e\u0072\u0074(URL)&#60;&#47;&#115;8#99;&#11 


de 4;&#105;&#112;,&#x74;&egt; 


d) 把 脚本 作为 CSS 样式 属性 的 url 值 嵌 入 到 HTML 元 素 中 大 写 转换 <SCRIPT>alert(URL)</SCRIPT> 
作为 攻击 向 量 。 小 写 转换 <script>alert(URL)</script> 
<body style="background-image: url('javascript:alert(&quot; 大 小 写 混合 转换 。 <scriPT>alert(URL)</SCriPt> 
Xss&quot;)');"> 根据 以 上 变异 处 理 方法 ， 本 文 定义 了 不 同形 式 的 EBNF 规 
<style>@import url("javascript:alert('xss')");</style> 则 ， 并 将 其 分 为 基本 字符 规则 和 基本 语句 规则 。 基 本 字符 规则 
Cis 如 表 2 所 示 。 
如 果 输 入 点 是 HTML 标签 内 属性 的 值 , 则 需要 先 将 标签 闭 表 2 基本 字符 规则 
合 ， 即 在 攻击 向 量 中 添加 起 始 字 符 串 “=”>” 或 者 “>”。 基本 字符 基本 字符 规则 
于 攻击 向 量 JavaScript 代码 部 分 可 以 填写 任意 合法 的 a = ‘a AN(&#,9765 Cx, 61N41),:)%61N%41'; 
JavaScript 语句 ， 所 以 本 文 在 代码 部 分 增加 了 输入 点 信息 , 这 样 26 个 英文 。 z= ZIC&ir122190|(xlXs7al7AT6al6A9.2919%67al9%67 
就 避免 了 在 检测 过 程 中 记录 输入 点 和 输出 点 信息 ， 从 而 很 大 程 字母 AlM%Sal 5A 
度 上 简化 了 漏洞 检测 的 整个 流程 。 比 如 说 对 于 攻击 向 量 .on 
<Script>alert('xss)</script>, 本文 将 alert(xss) 部 分 内 容 蔡 换 为 了 apostrophe_ symbol = "™"|('&#",39(x) ,27),:)%27'; 
alert(URL), 其 中 URL 实际 内 容 是 标识 输入 点 信息 的 URL 字符 quotation mark symbol = "|&quot:l(&#,341(xN X22),'; 
让 特殊 符号 
串 。 9196225 


22 EBNF 规 则 定义 


于 原 有 EBNF 语法 无 法 满足 需求 , 所 以 本 文 在 原 有 EBNF 基本 语句 建立 在 基本 字符 规则 的 基础 上 ， 其 规则 如 表 3 所 
的 基础 上 添加 了 几 条 新 的 语法 规则 。 定 义 如 下 : 
定义 1 定义 新 语法 “<…>”， 其 内 的 每 组 元 素 必须 以 “|” 表 3 基本 语句 规则 
连接 ， 含 有 分 组 的 概念 ， 可 以 多 层 嵌 套 ， 在 一 个 规则 中 如 果 出 基本 语 各 基本 语 各 规则 
现 由 “,” 连 接 两 次 或 以 上 同一 组 “<…>” 时 ， 只 能 选取 其 中 一 


html_element_two = <(a,cromym)lbltbjisjl(citbell(c.o， 
对 完全 相同 的 分 组 , 只 出 现 一 次 的 话 则 与 “(…)” 语 法 规则 相同 。 pm 类型。 dejldtnleumlduwty20314I51Goildcb dlGam plan 
定义 2 定义 新 语法 “:”， 以 符号 “:” 连 接 的 元 素 排列 是 
有 序 的 ， 含 有 “|” 的 概念 ， 一 个 规则 中 如 果 出 现 由 “,” 连 接 两 
次 或 以 上 此 类 连接 字符 串 时 ， 取 值 时 按 序 对 应 取 值 ， 只 出 现 


a,l, DICt, Ds,t,r,0,n, 2)l(V,ast)>; 
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录用 稿 
event_ attr keyboard = (0,n,k,e,y,d,0,w,n)|(0,n,k,e,y,p,r,e,s, 
S)l(0,n,k,e,y,u,p); 
left_script label = less_than sign symbol,script,greater th 
an_sign_ symbol; 

其 他 类 型 right script label = less than sign symbol,solidus_symbo 

1,script,greater_ than sign symbol; 

2.3 ”攻击 向 量变 异 


种 类 型 攻击 向 量 的 4 


定义 


如 下 几 条 规则 ， 


在 基本 字符 规则 和 基本 语句 规则 的 基础 之 上 ， 可 以 定义 各 
E 成 规则 。 根 据 上 文 介绍 过 的 攻击 向 量 类 型 


如 表 4 所 示 。 
表 4 攻击 向 量 生成 规则 


生成 方式 


攻击 向 量 生成 规则 


直接 使 / 


脚本 


脚本 作为 HTML 元 
素 的 属性 


脚本 作为 HTML 元 


素 的 


事件 


却 本 作为 CSS 样式 
属性 


闭合 HTML 标签 


payload rule0 = left script label,js_strings,right_ 
script_label; 
payload rule6 = less than sign symbol,script,sre 
_value,(solidus_symbol,greater than sign symbo 
Dl(greater than_ sign symbol,right script_ label) 
payload rule3 = left label url,url attr,equals sig 
n_symbol,url_value,(solidus_symbol,greater than_ 
sign_symbol)|(greater than sign symbol,right_ lab 
el_uUrD); 

payload rules = left label event,event attr,equal 
s_sign_symbol,quotations,js_strings,quotations,gre 
ater than sign symbol,[right label event]; 
payload rulel = left style_label,at_sign,import,ur 
l,left parenthesis_symbol,url value,right_parenthe 
sis_symbol,right_style_label; 

payload rule2 = left style_label,html] element st 
yle,left curly_brace,css_url attr,colon symbol,url, 
left parenthesis_symbol,url value,right parenthesi 
s_symbol,right_curly_brace,right_style_label; 
payload rule4 = left label style,style attr,equals 


_sign symbol,css url attr,colon symbol,url,left p 


arenthesis_symbol,url value,right parenthesis sy 
mbol,greater than sign symbol,[right label styl 

el; 

payload rule7 = [[equals_ sign symbol],quotation 
s,greater than sign symboll,payload ruleOlpayloa 
d_rulellpayload rule2|payload rule3|payload_rule 


4|payload_rule5lpayload_rule6; 


攻击 向 量 。 
FRV 
次 饥 


按照 这 些 规 则 进行 解析 之 后 ， 可 以 生成 复杂 度 很 高 的 变异 


这 里 使 用 规则 解析 树 来 对 划 
生成 一 棵 规则 解析 树 ， 之 后 按照 一 
历 便 可 以 生成 变异 的 攻击 向 量 。 例 如 基本 字符 规则 “a = ， 


进行 解析 ， 每 条 规则 对 
定 的 规则 对 解析 树 进行 层 
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al['A'C& 扩 , 97416510xX'61141030%61%415 ”对 应 的 规则 解 


析 树 如 图 1 所 示 。 


1 基本 字符 规则 解析 树 举 例 


同 理 ， 以 基本 语句 规则 “payload rule0 = left_script_label, 


js_strings,right_script_label; ”为 例 ， 其 对 应 的 规则 解析 树 如 图 2 


所 示 。 该 解析 树 的 每 一 个 叶子 节点 都 是 一 棵 由 基本 字符 规则 生 
成 的 解析 树 的 根 节点 。 
9 
ee pre 四 
rr ETT CI err 
FEED 
| ee) 加 
payload rule0 国 
| 加 
EE 四 
IN 一 CD rrr 9 
== 
0 
加 
图 2 基本 语句 规则 解析 树 举 例 
根据 每 种 攻击 向 量 的 生成 规则 ， 对 应 的 解析 树 生 成 的 变异 
攻击 向 量 如 表 5 所 示 。 
表 5 变异 后 攻击 向 量 
变异 规则 变异 后 攻击 向 量 


payload_rule0 


payload rulel 


payload_rule2 


payload rule3 


payload rule4 


&#60;S%63T%049pt&gtialert(URL)%3C9%02f&#X5 
3;&#67;%72%69p%54%3E 
<STy%6c%45%3e@%69&#109;%50%4F%S52%5 
4+&#32;+%55RL("Y%6AA%S6%61s%63%72ipR# 
X54;+%3aalert(URL)&#x22;)&lt;%2fs%54%79%4 
C&#101;> 
<%73&H#X54;R#xT79;%6CE>%41%7b%6c%69S& 
#116;%2DS%54%591E-%49m%41ge%3A%20ur% 
6C&#40;%22%6AA RH86;%61%53 RH#X63;R EHX 
49;%50&#X54;%20%3 Aalert(URL)")%7DE#6 
0;%2fS%74y&#X6C;%65 &#62,; 
<%69&#109;%67+&#X20;&#X4C;O%A4Eg%64% 
45&#115;%63%3D%22j%41%76&#97;%53%6 
3%52%69&#80;t&#x3A;alert(URL)%228#62;&# 
60;&#47;%49%4dg&et; 

&lt;a&# X20;&#32;8#x53;%54y%6CY%65=&#98; 


A%43kgRo%7SN&#X44;%2dI%4D%41%47%6 
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payload rule5 


payload rule6 


payload_ rule7 


S$%3AR#x55;rLE#40; quot;%4aA%76A%S3%43 
&#82;&#X69;pt%20%20:alert(URL)&#x22;8#4 
1:%3E 
%3c%61%A43R#114;%4f%4e%59%6d&#X20;+% 
4f&#78;%4BR#69;Y%7S5p="alert(URL)&quot;&g 
t;%3cR#X2F; CH#97;%63%T2%A4F%6eR#121;%6 
d%3E 

9%3c9%539%043 区 #82;%049%670 必 #116;%620SR%439%0 
20%3d&#x22;http://xss.ha.ckers.org/a.js&quot;%3 
E%3c&#X2F;sScR%A4PEHXS4; Ret; 
%3D"&gt;&#60;sc%72%69pT>alert(URL)%3C/s 


C9%672%049Pt&c#62; 


3 ”检测 系统 框架 与 流程 


3.1 整体 框架 


根据 前 文 对 各 种 类 型 XSS 漏洞 原理 的 研究 分 析 , 本 文 设计 


出 一 款 针对 存储 型 和 


反射 型 XSS 漏洞 的 检测 系统 , 目的 是 生成 


高 复杂 度 攻击 向 量 ， 并 实现 简化 XSS 漏洞 检测 流程 的 功能 。 本 
系统 一 共有 三 大 模块 组 成 ， 整 体 结构 如 图 3 所 示 。 其 中 攻击 向 


量 生成 模块 包括 规则 解析 树 生成 子 模块 和 变异 攻击 向 量 生成 了 
模块 两 个 子 模块 ， 疏 虫 模 块 包 括 页 卫 


怜 取 子 模块 和 页 面 解析 子 


模块 两 个 子 模块 。 攻 击 向 量 生 成 模块 是 检测 系统 的 基础 模块 ， 
为 怜 虫 模块 和 漏洞 检测 模块 提供 服务 ， 主 要 功能 是 生成 变异 后 


的 攻击 向 量 。 在 该 模块 中 ， 规 则 解析 树 生成 子 模块 根据 定义 的 
EBNF 规则 生成 与 其 相对 应 的 规则 解析 树 ， 之 后 变异 攻击 向 量 
生成 子 模块 根据 规则 解析 树 生 成 不 同 规则 下 的 变异 后 攻击 向 量 
字符 串 。 有 爬虫 模块 是 检测 系统 的 核心 模块 ， 为 漏洞 检测 模块 提 
供 服 务 ， 主 要 功能 是 实现 待 检测 系统 所 有 页 面 的 疏 取 和 解析 ， 


两 次 页 面 爬 取 过 程 都 在 此 模块 进行 。 甚 中， 页面 爬 取 子 模块 用 


来 生产 疏 虫 并 疏 取 页 
的 


在， 页 面 解析 子 模块 用 来 解析 爬虫 疏 取 到 


页面 并 将 分 析 结 果 反 馈 给 聆 虫 。 漏 洞 检测 模块 是 检测 系统 的 


最 终 模块 ， 依 赖 前 置 模块 提供 的 服务 ， 通 过 对 保存 的 页 面 内 容 


攻击 向 量 生 成 模块 


uu 


3.2 系统 流程 


EBNF 规 则 解析 树 生 | 。 、 变 异 攻击 向 量 生成 子 | | 
成 子 模块 中 模块 


疏 虫 模块 


> 页 面 外 取 ”一 让。 页 面 解析 
子 模块 | 子 醒 志 
后 


漏洞 检测 模块 


图 3 系统 整体 结构 


本 系统 检测 方法 是 基于 渗透 测试 技术 的 XSS 漏洞 检测 方 


法 。 整 个 检测 流程 如 


整个 漏洞 检测 流程 分 为 了 五 个 子 流程 ， 分 别 为 攻击 向 量 生 


图 4 所 示 。 


成 子 流程 、 初 始 化 爬虫 子 流 程 、 首 次 爬 取 与 解析 子 流 程 、 二 次 


爬 取 与 解析 子 流 程 以 及 漏洞 检测 子 流程 。 首 先 使 用 上 文 所 述 的 
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黄 文 锋 ， 等 : 基于 EBNF 和 二 次 爬 取 策 略 的 XSS 漏洞 检测 技术 


基于 EBNF 的 攻击 向 量 生成 方法 生成 不 同类 型 的 变异 攻击 向 量 ， 
便于 后 续 流 程 的 操作 使 用 ， 之 后 初始 化 疏 虫 相关 配置 ， 精 心 挑 
选 种 子 URL 加 入 待 怜 取 URL 队列 中 ; 扑 虫 初始 化 完成 以 后 ， 
使 用 漏洞 仆 虫 进行 首次 的 页 面 候 取 与 解析 过 程 ， 保 存 一 部 分 已 
扑 取 页 面 ; 然后 进行 二 次 页 面 仆 取 与 解析 流程 ， 获 得 首次 未 扑 
取 到 的 页 面 ， 最 后 对 所 有 息 取 到 的 页 面 进行 漏洞 检测 ， 判 定 是 
否 存 在 XSS 漏洞 。 下 面 对 每 个 子 流程 的 具体 执行 过 程 一 一 作 详 


细 介 绍 。 


/ 本 / \ | 加 AN 
| on 攻击 向 量 生成 ~ 开始 | 
\ V | | ~ 7 


初始 化 朴 虫 
本 pp 

首次 采取 与 解 | 7 NY 
析 \ 列 7 
v 

A ee 
己任 取 URL | | = < 
\ V 


3.2.1 攻击 向 量 生成 

该 子 流程 实现 了 变异 攻击 向 量 自动 生成 的 功能 ， 得 到 的 攻 
击 向 量 复杂 度 高 ， 能 够 有 效 绕 过 服务 器 端的 过 滤 机 制 。 有 具体 执 
行 流程 如 图 5 所 示 。 首 先 初始 化 攻击 向 量 生成 的 配置 信息 ; 然 
后 依照 配置 信息 ， 解 析 EBNF 格式 的 攻击 向 量 生成 规则 文件 
生成 变异 的 攻击 向 量 。 


人 2 

全 解析 规则 ,生成 攻 。 /攻击 向 量 及 其 变 /\ 
要 生 成 烟 则 文 代 击 向 量 部 异形 式 | 
| te 
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录用 稿 黄 文 锋 ， 等 : 基于 EBNF 和 二 次 爬 取 策 略 的 XSS 漏洞 检测 技术 
3.2.2 初始 化 眼下 首次 朴 取 流程 简化 许多 , 是 在 首次 爬 取 结果 的 基础 上 进行 爬 取 。 


在 此 子 流程 中 ， 为 了 使 息 虫 能 够 咎 取 到 系统 更 深层 次 的 页 ”两 次 稚 取 主要 针对 的 漏洞 类 型 不 完全 相同 ， 首 次 爬 取 主要 偏向 
面 ， 首 先 需要 在 待 候 取 系 统 中 进行 登录 认证 ; 认证 过 后 ， 对 候 。 于 反射 型 漏洞 的 仆 取 ， 存 储 型 漏洞 可 能 只 扑 取 到 小 部 分 ， 二 次 
虫 作 一 些 基 本 配置 ， 如 爬虫 数目 和 有 疏 取 深度 等 ， 最 后 将 精心 挑 。 扑 取 则 是 针对 于 存储 型 漏洞 ， 不 再 进行 反射 型 漏洞 的 怎 取 。 首 
选 的 一 部 分 种 子 URL 加 入 待 仆 取 URL 队列 中 。 详 细 流 程 如 图 ”次 爬 取 流 程 如 图 7 所 示 。 


， 用 
Mn 人 -| 初始 化 让 虫 | 
| 上 ; 
1 cy i 1 | 
11 攻击 向 量 生成 ，| 区 本 
1 1 1 稳 息 胶 、 Ne 
Po URL 队 ;>-------- 查看 URL 队 列 *< 是 否 为 空 
| 、 列 ， ~ 
| 4 
上 1 否 
| | 
| 取出 一 条 URL 并 
+ 让 从 队列 移 除 
六 7 4 
/站 点 登录 信 本 : | 
自 ”站 点 登录 认证 人 - I 
/ 电 一 是 否 存 在 、， 记录 并 解析 页 面 |。 中 一 是否 成 功 >。 | 请求 URL 并 获取 查看 变异 
人 入 新 的 URL 一 内 容 SS 页 面 攻击 向 量 
网 4 | ! 
| 上 二 | 一 生计 
灿 1 ues U 调整 请 求 参数 “一 否 < 万 让 


下 


人 》 初始 化 让 虫 配置 es 


图 7 首次 爬 取 与 解析 子 流程 


在 首次 候 取 过 程 中 ， 从 待 怎 取 URL 队列 中 取出 一 条 URL 

i ge 之 后 ,首先 使 用 合法 参数 发 送 一 次 请 求 ,获取 返回 页 面 并 解析 ， 

. 人 EE 的 是 抽取 出 新 的 待 他 取 URL 加 入 队列 ， 之 后 调整 请 求 参数 ， 
和 注入 变异 后 的 攻击 向 量 ， 重 复 该 次 请 求 ， 并 保存 返回 页 面 。 循 

环 这 一 过 程 ， 直 到 所 有 类 型 的 攻击 向 量 注入 完成 。 为 了 能 够 成 

| 功 请 求 获取 返回 页 面 ， 系 统 在 解析 页 面 时 对 URL 请 求 参数 进 
二 行 了 语义 分 析 ， 同 样 使 用 请 求 参数 对 应 的 标签 词 以 及 参数 的 

图 6 初始 化 耻 虫 子 流程 key 字符 串 进行 判断 ， 以 保证 请 求 参 数 的 合法 性 。 例 如， 某 个 请 

3.2.3 爬 取 与 解析 求 参数 对 应 的 标签 词 为 “预约 时 间 ” 可 以 判断 该 参数 的 合法 输 


疏 虫 疏 取 待 检测 系统 页 面 漏洞 时 ， 会 存在 这 样 一 种 情况 : 入 应 该 是 日 期 格式 ， 或 者 说 某 个 请 求 参数 的 key 字符 串 为 
系统 存在 一 部 分 具有 删除 功能 的 URL 请 求 ， 这 些 URL 请 求 会 “startSalesAmount”， 可 以 判断 该 参数 的 合法 输入 则 是 数字 格 
| 除 一 些 服务 器 端 数据 库存 储 的 数据 。 由 于 页 面 怜 取 顺 序 的 原 。” 式 等 。 
因 ， 扑 虫 首先 通过 某 个 存储 型 漏洞 的 输入 点 将 攻击 向 量 注入 到 对 于 反射 型 漏洞 ， 在 请 求 后 获取 到 的 页 面 中 就 包含 有 攻击 
服务 器 端 数据 库 中 ， 之 后 又 在 爬 取 到 对 应 的 输出 点 页 面前 ， 怜 向 量 内 容 ， 只 需要 进行 一 次 仆 取 即 可 。 然 而 对 于 存储 型 漏洞 来 
取 了 具有 删除 此 条 信息 功能 的 URL 请 求 ， 这 样 就 导致 数据 库 说， 由 于 怜 取 时 待 怜 取 URL 的 优先 级 和 待 检测 系统 相关 性 乱 
之 前 注入 的 攻击 向 量 信息 被 删除 ， 从 而 影响 到 后 续 检 测 页 面 漏 。 高 , 所 以 定义 待 仆 取 URL 的 优先 级 十 分 困难 , 这 就 导致 仆 取 顺 
洞 的 流程 ， 造 成 存储 型 漏洞 的 漏 报 。 序 具 有 很 大 的 随机 性 ， 无 法 保证 上 次 请 求 在 注入 攻击 向 量 后 ， 

因此 ， 本 系统 在 解析 页 面 时 通过 使 用 常规 解析 结合 语义 分 下 次 请 求 就 能 够 获取 到 对 应 的 输出 点 页 面 。 因 此 本 文 增加 了 二 
析 的 方式 , 在 抽取 新 的 URL 请 求 时 进行 语义 判断 , 将 包含 有 “d ”次 仆 取 过 程 来 解决 这 一 问题 。 详 细 执 行 流程 如 图 8 所 示 。 


下 过 


I 


el”“delete”“remove” 和 “rmv” 等 具有 删除 移 除 语义 的 URL el 

进行 过 滤 。 同时， 提取 出 URL 对 应 的 标签 词 ， 并 将 包含 有 “ 删 i 

除 "“delete”“ 移 除 "“remove” 和 “ 删 掉 ” 等 词汇 的 URL 过 滤 。 a | 本 a 

例如 ， 某 个 HTML 页 面 中 含有 这 样 一 个 超 链接 : <a href="Com | . 

panyAction delComByAdmin.do?id=00000001" onclick="javascr | : 

ipt:if (lconfirm(' 确 认 要 删除 ? ")) { window.event.returnValue = | BHR | A ) 

false;}"> 删 除 </a>， 此 条 URL 对 应 的 标签 词 为 “删除 ”URL 中 | 开 于 | , 

又 包含 有 “del” 字符 串 ， 因 而 将 该 URL 过 渡 不 进行 后 续 让 取 。 < am {| 
于 具有 删除 功能 的 URL 请 求 不 会 存在 反射 型 或 存储 型 XSS | en es 

漏洞 ， 所 以 是 否 假 取 不 会 影响 到 后 续 XSS 漏洞 的 检测 。 图 8 二 次 息 取 与 解析 子 流程 


本 系统 一 共有 两 次 爬 取 与 解析 过 程 ， 其 中 二 次 疏 取 相 比 较 二 次 朴 取 时 ， 不 再 对 请 求 参 数 作 调整 ， 直 接 使 用 系统 爬 取 
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到 的 URL 参数 进行 请 求 。 由 于 在 首次 爬 取 过 程 中 已 通过 存储 
型 漏洞 将 攻击 向 量 注入 到 服务 器 端 ， 所 以 二 次 爬 取 到 的 页 面 必 
定 包 含有 输出 点 页 面 。 又 由 于 首次 怜 取 注入 的 攻击 向 量 中 包含 
有 输入 点 信息 ， 这 样 就 可 以 保证 输入 点 和 输出 点 的 一 致 性 。 
3.2.4 漏洞 检测 
在 进行 两 次 息 取 与 解析 过 程 之 后 ， 对 待 检测 系统 的 每 一 次 
请 求 ， 其 获取 到 的 页 面 都 进行 了 保存 。 漏 洞 检测 过 程 只 需要 遍 
历 这 些 页 面 ， 分 析 页 面 内 容 中 是 否 包含 有 被 注入 的 攻击 向 量 信 
息 。 如 果 存 在 ， 则 认定 为 XSS 漏洞 ， 然 后 根据 攻击 向 量 中 含 
的 输出 点 信息 记录 漏洞 信息 ; 若 不 存在 则 忽略 。 有 具体 流程 如 图 
9 所 示 。 


I i ee 
一 是 否 售 有 ~、、 认定 为 XSS 漏 洞 
[说 检测 页 面 一 到 南 向 量 一 ”是 下 并 修改 URL 状 态 
| | | 量 一 医 
有 EU 人 
个 页 面 -URL | | 
否 ,网 一 一 一 一 一 一 一 一 ~、 
全、 是 ee 结束 并 
部 检测 一 NU 区 


习 9 ”漏洞 检测 子 流程 


4 ”实验 分 析 


为 了 验证 本 系统 在 检测 XSS 漏洞 方面 的 可 行 性 和 有 效 性 ， 
本 文 设计 了 两 组 对 比 实验 进行 验证 ,实验 指标 使 用 漏洞 检测 数 、 
漏洞 漏 报 率 和 漏洞 误 报 率 。 检 测 数 表示 实际 检测 到 的 漏洞 数目 。 
检测 数 的 计算 只 与 URL 相关 , 与 请 求 参数 不 相关 , 即 一 条 URL 
即使 存在 多 个 能 够 注入 攻击 向 量 的 请 求 参 数 ， 检 测 数 也 只 计算 
一 次 。 漏 洞 漏 报 率 是 检测 系统 未 发 现 的 漏洞 和 实际 漏洞 数 的 比 
值 ， 误 报 率 则 反映 了 检测 到 的 漏洞 的 准确 性 。 

第 一 组 对 比 实验 使 用 本 文 检测 系统 和 AWVSCacunetix Web 
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如 表 7 所 示 。 
表 7 实验 2 对 比 结 
实验 指标 本 文系 统 AWVS 工具 
漏洞 检测 数 14 9 
实际 漏洞 数 16 16 
漏洞 漏 报 率 12.50% 31.25% 


漏洞 误 报 率 0 6.25% 


从 实验 1 的 结果 可 以 看 出 ， 在 未 知 漏洞 的 情况 下 ， 本 系统 


的 检测 数 要 高 很 多 ， 实验 2 的 结果 显示 ， 本 系统 的 漏 报 率 要 低 
于 AWVS 工具 , 造成 以 上 结果 的 原因 是 ENBF 范式 生成 的 攻击 


AAA 


而 注入 恶意 代码 。 由 于 系统 忽略 了 县 有 删除 功能 的 URL， 所 
闵 对 于 存储 型 漏洞 注入 的 攻击 向 量 , 在 怜 取 过 程 中 不 会 被 删除 ， 


j 能 够 在 二 次 挖掘 过 程 中 检测 出 大 量 存储 型 漏洞 ， 漏 洞 漏 报 
率 得 到 很 大 程度 的 降低 。 由 两 组 对 比 实验 结果 可 以 发 现 ， 本 系 
统 两 次 测试 的 误 报 率 都 是 0， 这 是 由 于 攻击 向 量 中 包含 有 输入 


点 信息 ， 这 样 就 确保 了 进行 漏洞 检测 时 输入 点 和 输出 点 的 一 致 


Ebi 


， 从 而 不 会 发 生 误 报 漏洞 的 情况 。 


结束 语 


本 文通 过 研究 Web 系统 中 XSS 漏洞 的 产生 原理 和 相关 检 


则 技术 ， 设 计 了 一 款 基 于 渗透 测试 技术 的 XSS 漏洞 检测 系统 ， 


= 


实现 了 系统 原型 。 该 系统 针对 已 有 检测 系统 攻击 向 量 复杂 度 
低 易 过 滤 、 检 测 流程 元 余 的 问题 ， 提 出 了 一 种 基于 EBNF 范式 


高 复杂 度 攻 击 向 量 自动 生成 方法 ， 可 以 有 效 绕 过 服务 器 端 过 


通过 在 攻击 向 量 恶意 脚本 片段 僚 入 输入 点 信息 ， 不 仅 可 以 


简化 检测 流程 ， 而 且 几 乎 避免 了 漏洞 的 误 报 。 同 时 ， 通 过 进行 
二 次 仆 取 ， 进 一 步 减少 存储 型 漏 ;} 
报 率 。 最 后 通 
系统 的 XSS 漏洞 方面 的 可 行 性 和 有 效 性 。 


同 的 漏 报 ， 减 低 整体 的 漏洞 漏 
进行 两 组 对 比 实验 ， 证 明了 本 系统 在 检测 Web 


二 < 


权 


前 系统 并 没有 涉及 如 何 对 抗 WAF 以 及 反 疏 虫 措施 ， 仅 


vulnerability scanner ) 漏洞 扫描 工具 对 银行 间 业 务 信 息 共 享 与 交 


| 


流 平台 进行 检测 。 其 中 AWVS 工具 是 一 个 商业 化 漏洞 扫描 软件 ， 


民 于 开发 者 自己 的 Web 系统 使 用 ， 因 此 存在 一 定 的 局 限 性 。 在 
下 一 步 的 工作 中 ， 将 针对 这 一 问题 进行 优化 改进 ， 扩 大 使 用 范 


包含 有 收费 版 和 免费 版 两 种 版 本 。 本 文 使 用 免费 版 进行 对 比 实 
验 。 信 息 共享 与 交流 平台 是 一 个 标准 JSP+Struts2+MySQL+ 
Hibernate 架构 的 B/S 系统 ， 目 前 已 投入 使 用 。 由 于 该 系统 漏洞 
情况 是 未 知 的 ， 所 以 使 用 漏洞 检测 数 和 漏洞 误 报 率 作为 实验 指 
标 。 实 验 数 据 对 比 结果 如 表 6 所 示 。 

表 6 实验 1 对比 结果 


一 ; 


实验 指标 本 文系 统 AWVS 工具 
漏洞 检测 数 36 2 
漏洞 误 报 率 0 0 


第 二 组 对 比 实 验 使 用 本 文 检 测 系统 和 AWVS 工具 对 XSS 
漏洞 实验 平台 进行 漏洞 检测 。XSS 漏洞 实验 平台 是 自行 搭建 的 
] 于 存储 型 和 反射 型 漏洞 检测 的 平台 ， 其 漏洞 情况 已 知 ， 实 验 
指标 使 用 漏洞 检测 数 、 漏 洞 漏 报 率 和 漏洞 误 报 率 。 对 比 实验 结 


S 


大， 完善 XSS 漏洞 检测 系统 。 
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